خوشه‌بندی داده‌های بیان‌ژنی توسط عدم تشابه جنگل تصادفی

نویسندگان

چکیده مقاله:

Background: The clustering of gene expression data plays an important role in the diagnosis and treatment of cancer. These kinds of data are typically involve in a large number of variables (genes), in comparison with number of samples (patients). Many clustering methods have been built based on the dissimilarity among observations that are calculated by a distance function. As increasing the dimensions reduces the performance of distance functions, most of the methods provide low accuracy. In this paper a new dissimilarity measure is introduced based on a classification method, called Random forests (RF). The performance of this new measure has been evaluated in the gene expression data. Methods: In this article, the clustering problem of Chowdary data set, using the RF dissimilarity measure, is under consideration. At the first step, the clustering problem is converted to classification problem, thereafter the new dissimilarity is calculated using the classification method of random forests. Finally, the data are clustered with a partition around mediod algorithm and the results are then evaluated by adjusted rand index. All the analysis is implemented with R software. Results: The value of adjusted rand index (0.8149) represents an acceptable agreement between clusters and true groups. The most effective gene in constructing the clusters was gene no.31 which was detected by using the unique ability of RF that is identifying the importance of variables. Conclusion:  The random forest dissimilarity is an efficient criterion for measuring dissimilarity in gene expression data clustering. Detection of effective genes in clustering that is done with RF, helps the researcher in the diagnosing and treatment of the cancers

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

خوشه بندی داده های بیان ژنی توسط عدم تشابه جنگل تصادفی

زمینه و هدف: خوشه بندی داده های بیان ژنی در تشخیص و درمان سرطان، دارای اهمیت بسزایی است. مشخصه ی بارز این داده ها تعداد زیاد متغیرها (ژن ها) نسبت به تعداد داده ها (بیماران) است. بسیاری از روش های خوشه بندی بر پایه ی عدم تشابه داده ها که حاصل محاسبه ی یک تابع فاصله است‏، بنا شده اند و افزایش ‏بعد‏، کارآیی توابع فاصله را کاهش می دهد‏. در این تحقیق معیاری جدید برای محاسبه ی عدم تشابه در ابعاد بالا...

متن کامل

دسته بندی بر اساس تشابه و عدم تشابه

the concepts of similarity and dissimilarity have been the interest of many researchers. basically, in the studies the similarity between two objects or phenomena, has been discussed. in this thesis, we consider the case when the resemblance or similarity among three objects or phenomena of a set, 3-similarity in our terminology, is desired. later we will extend our definitions and propos...

15 صفحه اول

مدل پیش بینی زمان تضمین بر اساس دادههای برگشتی تصادفی

اغلب محصولات جدید همراه با ضمانت نامه به مراکز فروش فرستاده می شوند یکی از انواع سایت های بسیار رایج تولید تعیین ضمانت نامه با دوره و زمان ثابت و مشخص می باشد . در این زمان کارخانجات و بنگاههای تولیدی اقلام خراب را به صورت مجانی تعویض یا تعمیر می کنند. به طور کلی یک مشتری در مورد کیفیت یک محصول جددی نامطمین و مردد خواهد بود ودر نتیجه یک ضمانت نامه ی خوب اطمنیان و اعتماد مشتری را می گیرد سابقه ت...

15 صفحه اول

تنظیم و کاربرد الگوریتم جنگل تصادفی در ارزیابی ژنومی

One of the most important issues in genomic selection is using a decent method for estimating marker effects and genomic evaluation. Recently, machine learning algorithms which are members of non-parametric and non-linear methods have been extended to genomic evaluation. One of these methods is Random Forest (RF) on which this research was focused. Important parameters in RF algorithm are the n...

متن کامل

مدل‌سازی تصادفی بار رسوب با استفاده از جنگل تصادفی و رگرسیون چندک

سابقه و هدف: ارزیابی بار معلق رسوبی رودخانه‌ها بسیار مهم است. کیفیت آب رودخانه‌ها و محیط‌زیست تحت تأثیر بار رسوب می‌باشد. همچنین طراحی سازه‌های هیدرولیکی و سایر تأسیسات آبرسانی، مدیریت حوزه آبخیز و اجرای برنامه‌های حفاظت خاک و مشکلات عمده‌ی دیگر ناشی از آورد رسوب رودخانه‌ها به تخمین صحیح بار رسوب وابسته است. از آنجایی که برآورد مستقیم بار رسوبی بسیار دشوار و وقت‌گیر است، لذا این امر سبب شد محقق...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 22  شماره 136

صفحات  109- 118

تاریخ انتشار 2015-10

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023